Modern machine learning requires system designers to specify aspects of the learning pipeline, such as losses, architectures, and optimizers. Meta-learning, or learning-to-learn, instead aims to learn those aspects, and promises to unlock greater capabilities with less manual effort. One particularly ambitious goal of meta-learning is to train general-purpose in-context learning algorithms from scratch, using only black-box models with minimal inductive bias. Such a model takes in training data, and produces test-set predictions across a wide range of problems, without any explicit definition of an inference model, training loss, or optimization algorithm. In this paper we show that Transformers and other black-box models can be meta-trained to act as general-purpose in-context learners. We characterize phase transitions between algorithms that generalize, algorithms that memorize, and algorithms that fail to meta-train at all, induced by changes in model size, number of tasks, and meta-optimization. We further show that the capabilities of meta-trained algorithms are bottlenecked by the accessible state size (memory) determining the next prediction, unlike standard models which are thought to be bottlenecked by parameter count. Finally, we propose practical interventions such as biasing the training distribution that improve the meta-training and meta-generalization of general-purpose learning algorithms.
translated by 谷歌翻译
In this paper, we propose a new approach to learned optimization. As common in the literature, we represent the computation of the update step of the optimizer with a neural network. The parameters of the optimizer are then learned on a set of training optimization tasks, in order to perform minimisation efficiently. Our main innovation is to propose a new neural network architecture for the learned optimizer inspired by the classic BFGS algorithm. As in BFGS, we estimate a preconditioning matrix as a sum of rank-one updates but use a transformer-based neural network to predict these updates jointly with the step length and direction. In contrast to several recent learned optimization approaches, our formulation allows for conditioning across different dimensions of the parameter space of the target problem while remaining applicable to optimization tasks of variable dimensionality without retraining. We demonstrate the advantages of our approach on a benchmark composed of objective functions traditionally used for evaluation of optimization algorithms, as well as on the real world-task of physics-based reconstruction of articulated 3D human motion.
translated by 谷歌翻译
学识渊博的优化器 - 经过训练可以充当优化器的神经网络 - 有可能大大加速机器学习模型的培训。但是,即使以巨大的计算费用进行了数千个任务进行元训练,Blackbox学会的优化者在应用于任务的稳定性和概括方面也经常在其元训练集中使用。在本文中,我们使用动力学系统中的工具来研究优化算法的电感偏差和稳定性,并将所得的见解应用于设计黑框优化器的电感偏置。我们的调查始于嘈杂的二次模型,在该模型中,根据训练动力学的特征值,我们表征了优化稳定的条件。然后,我们将简单的修改引入了学到的优化器的体系结构和元训练过程,从而改善了稳定性,并改善了优化器的电感偏置。我们将最终学习的优化器应用于各种神经网络训练任务,在优化性能和元训练速度方面,它的表现优于当前的最新技术优化器(在匹配的优化器计算上的开销),并且能够实现对任务的概括与受元训练的任务大不相同。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
优化在开发机器学习系统中起着昂贵且至关重要的作用。在学习的优化器中,常用手工设计的优化器的少数超参数,例如Adam或SGD用灵活的参数函数代替。然后对这些功能的参数进行优化,以便所得的学习优化器最大程度地减少所选模型类别的目标损失。学识渊博的优化者都可以减少所需的训练步骤的数量并改善最终测试损失。但是,它们的训练可能很昂贵,一旦训练,由于优化器本身的计算和内存开销,使用训练可能很昂贵。在这项工作中,我们确定并量化了许多学习和手工设计的优化器的内存,计算和性能权衡的设计功能。我们进一步利用我们的分析来构建比以前的工作更快,更有效的学习优化器。我们的模型和培训代码是开源的。
translated by 谷歌翻译
展开的计算图在许多方案中出现,包括培训RNN,通过展开优化调整超级参与,以及培训学习优化器。当前在这种计算图中优化参数的方法遭受高方差梯度,偏差,慢更新或大的内存使用情况。我们介绍一种称为持久演进策略(PES)的方法,该方法将计算图分为一系列截断的展开,并在每个展开后执行基于演进策略的更新步骤。PE通过在整个展开序列上累积校正项来消除这些截断的偏差。PE允许快速参数更新,具有较低的内存使用率,是无偏的,具有合理的方差特性。我们通过实验证明了PE的优势与综合任务的渐变估计的其他几种方法相比,并表明其适用于培训学习优化器和调整超参数。
translated by 谷歌翻译
Ridge Rider(RR)是一种通过遵循Hessian(“脊”)的特征向量来查找各种解决方案的优化问题算法。RR专为保守梯度系统(即,涉及单次损失函数的设置)设计,其中它在鞍座上分支 - 易于找到的分叉点。我们通过提出一种方法 - 表示的广义脊骑手(GRR)来概括该想法,以寻找任意分叉点的方法。我们通过从动态系统领域利用机械来为我们的方法提供理论动机。我们构建了新的玩具问题,我们可以在欣赏到兴趣的高维问题的同时可视化新现象。最后,我们通过在迭代的囚犯困境和相关机器学习问题中找到不同的解决方案来统一地评估我们的方法。
translated by 谷歌翻译
可分辨率的编程技术在社区中广泛应用,负责过去几十年的机器学习文艺复兴。虽然这些方法是强大的,但它们有限制。在本简短的报告中,我们讨论了一种基于混乱的失效模式,这些失效模式出现在各种可分子的情况下,从经常性神经网络和数值物理模拟到培训学习优化器。我们追溯到正在研究的系统的雅各比亚的频谱,并为从业者可能预期这种未能破坏基于分化的优化算法的标准提供标准。
translated by 谷歌翻译
学习的优化器是可以训练解决优化问题的算法。与使用从理论原则派生的简单更新规则的基线优化器(例如势头或亚当)相比,学习的优化器使用灵活,高维,非线性参数化。虽然这可能导致某些设置中的更好性能,但他们的内部工作仍然是一个谜。学习优化器如何优于一个良好的调整基线?它是否学习了现有优化技术的复杂组合,或者是实现全新的行为吗?在这项工作中,我们通过仔细分析和可视化的学习优化器来解决这些问题。我们研究了从三个不同的任务中从头开始培训的优化器,并发现他们已经了解了可解释的机制,包括:势头,渐变剪辑,学习率计划以及新形式的学习率适应形式。此外,我们展示了学习优化器的动态如何实现这些行为。我们的结果帮助阐明了对学习优化器的工作原理的先前密切了解,并建立了解释未来学习优化器的工具。
translated by 谷歌翻译
In recent years, supervised learning with convolutional networks (CNNs) has seen huge adoption in computer vision applications. Comparatively, unsupervised learning with CNNs has received less attention. In this work we hope to help bridge the gap between the success of CNNs for supervised learning and unsupervised learning. We introduce a class of CNNs called deep convolutional generative adversarial networks (DCGANs), that have certain architectural constraints, and demonstrate that they are a strong candidate for unsupervised learning. Training on various image datasets, we show convincing evidence that our deep convolutional adversarial pair learns a hierarchy of representations from object parts to scenes in both the generator and discriminator. Additionally, we use the learned features for novel tasks -demonstrating their applicability as general image representations.
translated by 谷歌翻译